Dokumentasi Knime#
Tujuan Tugas:
Melakukan pengumpulan data Postgresql
Melakukan analisa data untuk klasifikasi tool knime
Membangun scripts python untuk analisa data pada knime
Kriteria Tugas:
Download Knime https://www.knime.com/downloads
Download driver postgresql https://jdbc.postgresql.org/. Pastikan sudah terinstall jdk minimum 9
Anda telah menginstall python conda/Miniforge minimum 3.9
Mengumpulkan data postgresql#
Data Ecoli dimasukkan kedalam Penyimpanan cloud yaitu aiven melalui dbeaver
Mendownload driver postgresql#
ikuti link ini https://jdbc.postgresql.org/ untuk mendownload driver postgresql
Mendownload dan menginstall tool knime#
ikuti link ini https://www.knime.com/downloads untuk mendownload tool knime nya
Setelah proses download telah selesai,lanjutkan ketahap instalasi.Setelah instalasi selesai buka tool knime
untuk membuat file baru bisa memilih menu local space terlebih dahulu setelah itu tekan tombol tambah yang besar agar membuat file baru
berikan nama file dengan nama Projek Pra UTS PSD
Pergi ke menu nodes untuk mengakses node node yang ingin kita gunakan, ada banyak node yang bisa kita gunakan untuk kebutuhan pengolahan data kita. Untuk bagian scripting tampilannya akan hanya ada node default nya saja seperti java snippet dan lain lain
nah untuk bisa menggunakan python scripting kita harus menyeting terlebih dahulu, kita pergike menu pada bagian atas disamping sign in setelah itu pilih menu install extension lalu cari entry seperti ini:
KNIME Python Integration
KNIME Python Integration (Labs)
KNIME Deep Learning Integration (Python)
lalu centang extension tersebut agar python scripting terinstall dan muncul pada bagian node
Melakukan analisa data untuk klasifikasi tool knime#
pilih node node apa saja yang ingin digunakan, nah berhubung saya telah memasukkan data penyimpanan cloud yaitu aiven melalui dbeaver maka node pertama yang saya pilih adalah postgresql connector
lalu lakukan konfigurasi pada node postgresql connector. lakukan konfigurasi dengan informasi yang sesuai dengan postgre kita
setelah postgresql connector tersambung kita lanjut memilih node DB TABLE SELECTOR agar memilih tabel mana yang ingin digunakan lalu lanjut dengan menggunakan node DB READER untuk membaca data oada tabel kita
lalu saya lanjut menggunakan node BAR CHART dan STATISTICS untuk melihat persebaran datanya
NUMERIC OUTLIER#
dibagian lain setelah node DB READER saya memilihi node NUMERIC OUTLIER agar melakukan outlier detection dilanjutkan dengan menggunakan node PYTHON SCRIPT(LEGACY) melakukan penyeimbangan data menggunakan metode smote menggunakan script python
namun sebelum kita menggunakan node tersebut kita harus membuat environtment python terlebih dahulu. jadi saya membuat environtment python pada anaconda. Dan juga ada batasan minimum untuk environtment yang akan dibuat yaitu minimal python 3.9 karena ada satu library yaitu ** library IMP** yang hanya bisa diakses oleh python 3.9 saja untuk python 3.12 tidak akan bisa menggunakan nya
lalu melakukan instalasi library yang akan digunakan pada script python nantinya seperti berikut library yang saya install:
pandas
numpy
matplotlib
scipy
scikit-learn
seaborn
Setelah itu kita menuju tool knimenya dan masuk ke menu PREFERENCES dan kita menuju ke PYTHON ataupun PYTHON(LEGACY) lalu kita melakukan konfigurasi dengan memilih versi python yaitu python3 dan memilih environtmentnya dengan nama conda dan memilih environtment yang kita telah buat tadi untuk environtment yang saya buat bernama KNIME ketika sudah selesai melakukan konfigurasi maka lanjutkan dengan apply and close
Lalu kita bisa kembali kepada workflow kita dan melakukan konfigurasi untuk **PYTHON SCRIPT(LEGACY) ** seperti ini
lalu dilanjutkan dengan menghubungkannya kepada node BAR CHART agar kita bisa melihat visualisasi data yang telah melalui python script
UNBALANCED DATASET(SMOTE)#
lalu setelah node OUTLIER NUMERIC kita menghubungkannya kepada node SMOTE untuk melalukan balancing data lalu menghubungkan kepada node STATISTIC DAN NODE BARCHART agar melihat visualisasi data setelah dilakukannya balancing data
MISSING VALUE#
Setelah tahap balancing data disini dilanjutkan dengan tahap missing value yang menggunakan node MISSING VALUE lalu menghubungkannya kepada node lain seperti BAR CHART dan VIEW TABLE untuk melihat visualisasi data yang telah dilakukan missing value
Gambar dari Workflow saya#
berikut adalah alur dari workflow saya beserta linknya link workflow knime